查看原文
其他

Importance of being uncertain

Importance of being uncertain

简介


Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。

蒙提霍尔问题

        我们先看一个例子,经典的三门问题(蒙提霍尔问题)是这样描述的:参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车或者是奖品,选中后面有车的那扇门就可以赢得该汽车或奖品,而另外两扇门后面则各藏有一只山羊或者是后面没有任何东西。当参赛者选定了一扇门,但未去开启它的时候,知道门后情形的节目主持人会开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机会率?

        当这个问题的解答发表出来的时候,成百上千的读者认为该答案是错误的,其中包括非常多的博士研究生。这个游戏的答案是换另一扇门可以增加参赛者的几率。感兴趣的朋友可以去http://marilynvossavant.com/game-show-problem/看看解答及大家的评论。

        事实上,选择不换的话胜率是三分之一,而换的胜率是三分之二。大家可以做以下游戏,取三张扑克牌,两个王,一个A,选中A则胜。一名同学先选一张扑克,在不看扑克之前由主持人去掉剩余两张牌里面的一张王。这样可以模拟上述游戏。大家可以每次选择换,或者每次选择不换,重复操作多次,会发现,换的胜率是三分之二。

总体分布

        上面是一个有趣的统计游戏,统计可以帮助我们在不玩游戏就知道怎么选择胜率更高。这里介绍一些基本的统计概念。

        总体是要研究的事件的所有组成。很多事件的总体是没法获取的,比如TP53在健康人中的表达水平,显然我们没有办法去获取所有人该基因的表达。但如果我们要研究TP53在健康人中的表达,我们可以采用抽样的方式选取样本来研究:检测20个人TP53的表达。

        为了衡量总体的分布,通常通过推断总体的均值和方差。

        如上图所示,总体的均值可以表示总体的水平,而方差可以表示总体分布的离散程度。我们通过对样本的均值和方差的计算来估计总体的均值和方差。

样本均值、方差、均值分布

        在数学和统计学中有两个很著名定理,大数定理和中心极限定理,大数定理告诉我们,当样本数量较大是,样本均值趋近于总体均值。中心极限定理告诉我们样本均值随着样本数量增大趋近于服从正态分布。

        如上图所示,若从a图中的总体中抽取b图样本大小为5的样本很多个,这些样本的均值会趋近于服从正态分布(c图)。

        如上图所示,不同的总体分布中抽样,随着样本数量的增加,样本均值越来越趋近于正态分布。样本均值随着样本量增加趋近于总体均值,样本方差随着样本量增加趋近于总体方差,样本均值的方差随着样本量的增加趋近于总体方差除以样本数量(下图)。

        当然,我们上面所提到的随着样本数量的增加所产生的统计效果需要在随机抽样。有偏差的抽样是不一定正确的,比如在研究中国人群平均身高的时候,抽样局限于男性、或者抽样局限于大学生是不能准确的估计总体的的均值和方差的。

参考文献

  1.  Krzywinski, M., and Altman, N. (2013). Points of significance: Importance of being uncertain. Nature methods 10, 809-810.

声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误,感谢您指出。

若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存